두 자료의 평균이 같다고 해서 두 자료가 같은 것은 아니다. 한 무더기는 모두 평균 근처에 모여 있고, 다른 무더기는 멀리 흩어져 있다. 얼마나 흩어졌는가를 한 수로 표현한 것이 분산과 표준편차다.
각 자료가 평균에서 얼마나 떨어졌는지. 양수면 평균보다 큼, 음수면 작음, 0이면 평균과 같음.
핵심 사실: 편차들의 합은 항상 0. $\sum(x_i - \bar{x}) = 0$. 이 때문에 편차의 단순 평균은 0이 되어 — 흩어짐의 척도로 쓸 수 없다.
편차를 제곱하고 평균을 낸 것. 음수가 사라져서 합쳐도 0이 되지 않는다.
단위: 자료가 cm라면 분산은 cm². 그래서 원래 단위로 돌아오기 위해 제곱근을 취한다.
분산의 제곱근. 단위가 자료와 같아져서 직접 비교 가능.
"자료가 평균에서 평균적으로 얼마나 떨어져 있는가"의 척도. 작을수록 자료가 평균 주위에 모여 있고, 클수록 흩어져 있다.
$\bar{x} = \tfrac{1}{n}\sum x_i$ 의 정의에서 즉시. 따라서 평균은 "편차의 합을 0으로 만드는 유일한 값". 자료의 균형점.
$\bar{x} = \dfrac{1}{n}\sum x_i$. 모든 자료를 더해 개수로 나눈다.
각 자료 $x_i$ 에 대해 편차 $x_i - \bar{x}$ 를 구한다. (체크: 편차의 합이 0이 되어야 함.)
각 편차를 제곱한 뒤 모두 더한다: $\sum(x_i - \bar{x})^2$.
분산 $s^2 = $ 위 합을 $n$ 으로 나눈 값. 표준편차 $s = \sqrt{s^2}$.
STEP 1 · 평균 $\bar{x} = \dfrac{1+3+5+7+9}{5} = \dfrac{25}{5} = 5$.
STEP 2 · 3 · 표로 정리:
| $x_i$ | 편차 $x_i - \bar{x}$ | 편차의 제곱 $(x_i-\bar{x})^2$ |
|---|---|---|
| 1 | −4 | 16 |
| 3 | −2 | 4 |
| 5 | 0 | 0 |
| 7 | 2 | 4 |
| 9 | 4 | 16 |
| 합 | 0 ✓ | 40 |
STEP 4 · 분산 $s^2 = \dfrac{40}{5} = 8$. 표준편차 $s = \sqrt{8} = 2\sqrt{2} \approx 2.83$.
관찰 자료 Y의 표준편차 $3\sqrt{2}$ 는 X의 $\sqrt{2}$ 의 3배. 자료 Y의 값들이 평균에서 3배 더 떨어져 있다. 평균은 같지만 자료의 모습은 전혀 다르다 — 분산·표준편차가 이 차이를 정량적으로 보여준다.
"편차의 평균이 흩어짐의 측도가 될 수 없다면, 절댓값을 평균내면 되지 않나?" — 충분히 합리적인 질문. 실제로 그것을 평균 절대 편차 (MAD) 라 부르고 통계에서 사용한다. 하지만 분산을 표준으로 쓰는 이유:
결국 — 수학적 우아함과 실용성의 균형점이 제곱을 택하게 했다.
$d_i = x_i - \bar{x}$. 자료가 평균에서 얼마나 떨어졌나. 합은 항상 0.
$s^2 = \tfrac{1}{n}\sum(x_i - \bar{x})^2$. 편차 제곱의 평균. 단위는 자료의 제곱.
$s = \sqrt{s^2}$. 분산의 제곱근. 자료와 같은 단위.
평균 → 편차 → 편차 제곱 합 → ÷n (분산) → √ (표준편차).
다음 단계 — Ⅵ-2.3 산점도와 상관관계 지금까지 다룬 것은 한 변수의 자료. 이제 두 변수의 짝을 다룬다. 키와 몸무게, 공부 시간과 점수 — 두 변수가 함께 변할 때 그 관계를 어떻게 시각화하고 측정하는가?